智能论文笔记

Recall, Expand and Multi-Candidate Cross-Encode: Fast and Accurate Ultra-Fine Entity Typing

Chengyue Jiang , Wenyang Hui , Yong Jiang , Xiaobin Wang , Pengjun Xie , Kewei Tu

分类：自然语言处理 | 人工智能

2022-12-18

Ultra-fine entity typing (UFET) predicts extremely free-formed types (e.g., president, politician) of a given entity mention (e.g., Joe Biden) in context. State-of-the-art (SOTA) methods use the cross-encoder (CE) based architecture. CE concatenates the mention (and its context) with each type and feeds the pairs into a pretrained language model (PLM) to score their relevance. It brings deeper interaction between mention and types to reach better performance but has to perform N (type set size) forward passes to infer types of a single mention. CE is therefore very slow in inference when the type set is large (e.g., N = 10k for UFET). To this end, we propose to perform entity typing in a recall-expand-filter manner. The recall and expand stages prune the large type set and generate K (K is typically less than 256) most relevant type candidates for each mention. At the filter stage, we use a novel model called MCCE to concurrently encode and score these K candidates in only one forward pass to obtain the final type prediction. We investigate different variants of MCCE and extensive experiments show that MCCE under our paradigm reaches SOTA performance on ultra-fine entity typing and is thousands of times faster than the cross-encoder. We also found MCCE is very effective in fine-grained (130 types) and coarse-grained (9 types) entity typing. Our code is available at \url{https://github.com/modelscope/AdaSeq/tree/master/examples/MCCE}.

translated by 谷歌翻译

Learning Reconstructability for Drone Aerial Path Planning

Yilin Liu , Liqiang Lin , Yue Hu , Ke Xie , Chi-Wing Fu , Hao Zhang , Hui Huang

分类：计算机视觉

2022-09-21

我们介绍了第一个基于学习的可重建性预测指标，以改善使用无人机的大规模3D城市场景获取的视图和路径计划。与以前的启发式方法相反，我们的方法学习了一个模型，该模型明确预测了从一组观点重建3D城市场景的能力。为了使这种模型可训练并同时适用于无人机路径计划，我们在培训期间模拟了基于代理的3D场景重建以设置预测。具体而言，我们设计的神经网络经过训练，可以预测场景的重构性，这是代理几何学的函数，一组观点，以及在飞行中获得的一系列场景图像。为了重建一个新的城市场景，我们首先构建了3D场景代理，然后依靠我们网络的预测重建质量和不确定性度量，基于代理几何形状，以指导无人机路径计划。我们证明，与先前的启发式措施相比，我们的数据驱动的可重建性预测与真实的重建质量更加紧密相关。此外，我们学到的预测变量可以轻松地集成到现有的路径计划中，以产生改进。最后，我们根据学习的可重建性设计了一个新的迭代视图计划框架，并在重建合成场景和真实场景时展示新计划者的卓越性能。

translated by 谷歌翻译

Point Cloud Registration-Driven Robust Feature Matching for 3D Siamese Object Tracking

Haobo Jiang , Kaihao Lan , Le Hui , Guangyu Li , Jin Xie , Jian Yang

分类：计算机视觉 | 人工智能

2022-09-14

在模板和搜索区域之间学习强大的功能匹配对于3D暹罗跟踪至关重要。暹罗功能匹配的核心是如何在模板和搜索区域之间的相应点上分配高特征相似性，以进行精确的对象本地化。在本文中，我们提出了一个新颖的点云登记驱动的暹罗跟踪框架，直觉是空间对齐相应点（通过3D注册）倾向于实现一致的特征表示。具体而言，我们的方法由两个模块组成，包括特定于特定的非局部注册模块和一个注册辅助的sindhorn模板 - 特征聚合模块。登记模块在模板和搜索区域之间的精确空间对齐中进行目标。提出了跟踪特异性的空间距离约束，以优化非局部模块中的交叉注意权重，以进行判别特征学习。然后，我们使用加权SVD来计算模板和搜索区域之间的刚性转换，并对齐它们以实现所需的空间对齐相应点。对于特征聚合模型，我们将转换模板和搜索区域之间的特征匹配作为最佳传输问题，并利用Sinkhorn优化来搜索异常型匹配匹配解决方案。同样，建造了登记辅助空间距离图，以改善无法区分的区域（例如光滑的表面）的匹配鲁棒性。最后，在获得的功能匹配地图的指导下，我们将目标信息从模板中汇总到搜索区域中以构建特定于目标的特征，然后将其馈送到一个类似中心点的检测头中以进行对象定位。关于Kitti，Nuscenes和Waymo数据集的广泛实验验证了我们提出的方法的有效性。

translated by 谷歌翻译

Unsupervised Domain Adaptation for Point Cloud Semantic Segmentation via Graph Matching

Yikai Bian , Le Hui , Jianjun Qian , Jin Xie

分类：计算机视觉

2022-08-09

无监督的域对点云语义分割的适应性引起了极大的关注，因为它在没有标记的数据中学习有效性。大多数现有方法都使用全局级特征对齐方式将知识从源域转移到目标域，这可能会导致特征空间的语义歧义。在本文中，我们提出了一个基于图形的框架，以探索两个域之间的局部特征对齐，可以在适应过程中保留语义歧视。具体而言，为了提取本地级特征，我们首先在两个域上动态构建本地特征图，并使用来自源域的图形构建存储库。特别是，我们使用最佳传输来生成图形匹配对。然后，基于分配矩阵，我们可以将两个域之间的特征分布与基于图的本地特征损失对齐。此外，我们考虑了不同类别的特征之间的相关性，并制定了类别引导的对比损失，以指导分割模型以学习目标域上的区分特征。对不同的合成到现实和真实域的适应情景进行了广泛的实验表明，我们的方法可以实现最先进的性能。

translated by 谷歌翻译

Generative Subgraph Contrast for Self-Supervised Graph Representation Learning

Yuehui Han , Le Hui , Haobo Jiang , Jianjun Qian , Jin Xie

分类：机器学习 | 人工智能

2022-07-25

对比学习在图表学习领域表现出了巨大的希望。通过手动构建正/负样本，大多数图对比度学习方法依赖于基于矢量内部产品的相似性度量标准来区分图形表示样品。但是，手工制作的样品构建（例如，图表的节点或边缘的扰动）可能无法有效捕获图形的固有局部结构。同样，基于矢量内部产品的相似性度量标准无法完全利用图形的局部结构来表征图差。为此，在本文中，我们提出了一种基于自适应子图生成的新型对比度学习框架，以实现有效且强大的自我监督图表示学习，并且最佳传输距离被用作子绘图之间的相似性度量。它的目的是通过捕获图的固有结构来生成对比样品，并根据子图的特征和结构同时区分样品。具体而言，对于每个中心节点，通过自适应学习关系权重与相应邻域的节点，我们首先开发一个网络来生成插值子图。然后，我们分别构建来自相同和不同节点的子图的正和负对。最后，我们采用两种类型的最佳运输距离（即Wasserstein距离和Gromov-Wasserstein距离）来构建结构化的对比损失。基准数据集上的广泛节点分类实验验证了我们的图形对比学习方法的有效性。

translated by 谷歌翻译

3D Siamese Transformer Network for Single Object Tracking on Point Clouds

Le Hui , Lingpeng Wang , Linghua Tang , Kaihao Lan , Jin Xie , Jian Yang

分类：计算机视觉

2022-07-25

基于暹罗网络的跟踪器将3D单一对象跟踪作为模板和搜索区域的点特征之间的互相关学习。由于跟踪过程中模板和搜索区域之间的外观差异很大，因此如何学习它们之间的稳健跨相关性以识别搜索区域中的潜在目标仍然是一个挑战性的问题。在本文中，我们明确使用变压器形成一个3D Siamese变压器网络，以学习模板和点云的搜索区域之间的强大互相关。具体来说，我们开发了一个暹罗点变压器网络，以了解目标的形状上下文信息。它的编码器使用自我注意力来捕获点云的非本地信息来表征对象的形状信息，而解码器则利用交叉注意来提取歧视点特征。之后，我们开发了一个迭代的粗到加密相关网络，以了解模板与搜索区域之间的稳健跨相关性。它通过交叉注意将模板与搜索区域中的潜在目标联系起来，制定了交叉功能的增强。为了进一步增强潜在目标，它采用了自我功能增强，该增强功能将自我注意力应用于特征空间的本地K-NN图来汇总目标特征。 Kitti，Nuscenes和Waymo数据集的实验表明，我们的方法在3D单一对象跟踪任务上实现了最先进的性能。

translated by 谷歌翻译

RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation

Mu He , Le Hui , Yikai Bian , Jian Ren , Jin Xie , Jian Yang

分类：计算机视觉

2022-07-25

现有的自我监督的单眼估计方法可以摆脱昂贵的注释并获得令人鼓舞的结果。但是，当直接采用接受固定分辨率训练的模型以评估其他不同决议时，这些方法会遭受严重的性能降解。在本文中，我们通过学习场景深度的规模不变性，提出了一个分辨率自适应自我监督的单眼估计方法（RA-DEPTH）。具体而言，我们提出了一种简单而有效的数据增强方法，以生成具有任意尺度的同一场景的图像。然后，我们开发了一个双重高分辨率网络，该网络使用具有密集交互的多路径编码器和解码器来汇总多尺度特征，以进行准确的深度推理。最后，为了明确了解场景深度的规模不变性，我们在具有不同尺度的深度预测上制定了跨尺度的深度一致性损失。对Kitti，Make3D和NYU-V2数据集进行了广泛的实验表明，RA-DEPTH不仅可以实现最新的性能，而且还表现出很好的解决能力。

translated by 谷歌翻译

Less is More: Adaptive Curriculum Learning for Thyroid Nodule Diagnosis

Haifan Gong , Hui Cheng , Yifan Xie , Shuangyi Tan , Guanqi Chen , Fei Chen , Guanbin Li

分类：计算机视觉

2022-07-02

甲状腺结节分类旨在根据给定的超声图像确定结节是良性还是恶性。但是，通过细胞学活检获得的标签是临床医学的黄金标准，并不总是与超声成像TI-RADS标准一致。两者之间的信息差异导致现有的基于深度学习的分类方法具有优柔寡断。为了解决不一致的标签问题，我们提出了一个自适应课程学习（ACL）框架，该框架可以自适应地发现并用不一致的标签丢弃样品。具体而言，ACL同时考虑了硬样品和模型确定性，并且可以准确确定用不一致的标签区分样品的阈值。此外，我们贡献了TNCD：甲状腺结节分类数据集，以促进对甲状腺结节的未来相关研究。基于三个不同的骨干网络的TNCD的广泛实验结果不仅证明了我们方法的优势，而且证明了较少的IS原理在战略上以不一致的标签抛弃样品可以产生性能提高。源代码和数据可从https://github.com/chenghui-666/acl/获得。

translated by 谷歌翻译

Customized Conversational Recommender Systems

Shuokai Li , Yongchun Zhu , Ruobing Xie , Zhenwei Tang , Zhao Zhang , Fuzhen Zhuang , Qing He , Hui Xiong

分类：人工智能

2022-06-30

会话推荐系统（CRS）旨在捕获用户的当前意图，并通过实时多转交流交互提供建议。作为人机互动系统，CRS必须改善用户体验。但是，大多数CRS方法忽略了用户体验的重要性。在本文中，我们为CRS提出了两个关键点，以改善用户体验：（1）像人类一样说话，人类可以根据当前的对话环境以不同的风格说话。（2）识别精细颗粒的意图，即使对于相同的话语，不同的用户也具有多种良好的意图，这与用户的固有偏好有关。根据观察结果，我们提出了一个新颖的CRS模型，即创建的定制对话推荐系统（CCRS），该系统从三个角度从三个角度定制了用户的CRS模型。对于类似人类的对话服务，我们提出了多式对话响应生成器，该响应响应生成器选择了语音发言的上下文感知语言风格。为了提供个性化的建议，我们在用户固有的偏好的指导下从对话上下文中提取用户当前的细粒度意图。最后，为了自定义每个用户的模型参数，我们从元学习的角度训练模型。广泛的实验和一系列分析表明，我们的CCR在推荐和对话服务上的优势。

translated by 谷歌翻译

Domain Disentangled Generative Adversarial Network for Zero-Shot Sketch-Based 3D Shape Retrieval

Rui Xu , Zongyan Han , Le Hui , Jianjun Qian , Jin Xie

分类：计算机视觉

2022-02-24

基于草图的3D形状检索是一项具有挑战性的任务，这是由于草图和3D形状之间的较大域差异。由于现有方法是在相同类别上进行培训和评估的，因此他们无法有效地识别培训期间未使用的类别。在本文中，我们建议用于基于零素描的3D检索的新型域分解生成对抗网络（DD-GAN），该域可以检索训练过程中未访问的不看到的类别。具体而言，我们首先通过删除草图和3D形状的学习特征来生成域不变的特征和特定于域特异性特征，在该特征中，域，域，不变的特征用于与相应的单词嵌入在一起。然后，我们开发了一个生成的对抗网络，该网络将所见类别的特定域特征与对齐的域不变特征结合在一起，以合成样品，在其中使用相应的单词嵌入式生成了看不见类别的合成样本。最后，我们使用看不见类别的综合样本与可见类别的真实样本相结合来训练网络进行检索，以便可以识别出看不见的类别。为了减少域移位问题，我们利用未看到的未见样本来增强歧视者的歧视能力。通过鉴别器将生成的样品与未看到的看不见的样品区分开，生成器可以生成更现实的看不见的样品。 SHEREC'13和SHEREC'14数据集的广泛实验表明，我们的方法显着提高了看不见类别的检索性能。

translated by 谷歌翻译